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Beschreibung 

Verfahren und Anordnung sowie Computerprogramm mit Programm- 
code-Mitteln und Computerprogramm-Produkt zur Analyse von ge- 
mali einer Datenbankstruktur strukturierten Nutzdaten 

Die Erfindung betrifft eine Analyse von gemafi einer Daten- 
bankstruktur strukturierten Nutzdaten, wie beispielsweise 
Kunden- oder Produktdaten eines Unternehmens . 

Fast jeder Vorgang in einem Unternehmen, wie jeder Kontakt 
des Unternehmens mit einem Kunden oder jeder logistische Vor- 
gang innerhalb eines Unternehmens, beginnend bei einer Be- 
stellung eines Produkts bis hin zu einer Auslieferung des 
fertigen Produkts, wird heute elektronisch unterstiitzt durch- 
gefiihrt bzw. kontrolliert und gesteuert. 

Dabei werden systematisch Daten, beispielsweise Kundendaten 
oder Produktdaten, erfasst und. protbkolliert , die Basis fur. 
Skonomische, betriebswirtschaf tliche und/oder marktstrategi- 
sche Analysen sind, mit welchen die Daten in verwertbare oko- 
nomische, betriebswirtschaf tliche und/oder marktstrategische 
Erkenntnisse umgesetzt werden. 

Wegen ihrer okonomischen, betriebswirtschaf tlichen und/oder 
marktstrategischen Bedeutung stellen diese Unternehmensdaten 
far die Unternehmen einen bedeutenden VermSgensgegenstand 
dar. Demzufolge unternehmen die Unternehmen grolie Anstrengun 
gen bei der Erfassung und der Analyse dieser Daten. 

Fur die Erfassung solcher Unternehmensdaten stehen verschie- 
dene, allgemein bekannte Systeme zur Verfugung, wie bei- 
spielsweise Customer Relationship Management Systeme (CRM) 
[1] -Supply -Chain Management Systeme (SCM) -["2] oder Data Wa- 
rehouses [3] . 
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Nach der Erfassung werden die Daten meist in Datenbanken ab- 
gelegt und entsprechend strukturiert gespeichert In der Re- 
gel werden dabei Datensatze Dl-(A±.Bi,C±, ...) gebxldet, wo- 
bei der Index i den jeweiligen Datensatz Di bezeichnet. 

Jeder Datensatz Di represent iert ein bestimmtes Objekt aus 
einer Gruppe von Objekten, beispielsweise einen bestxmmten 
Kunden aus alien erfassten Kunden eines Unternehxnens oder exn 
bestin.ates Produkt aus einer Produktlinie eines —mens. 

jeder Datensatz umfasst dabei eine vorgebbare Anzahl von Ein- 

tragen, Ai, Bi, Ci die einzelnen erfassten Daten, mxt 

Kategorien bzw. Attributen A, B, C Diese Kategorxen 

bzw. Attribute reprasentieren Eigenschaf ten einer Ob.ektgrup- 
5 pe, wie Alter (A) , Einkommen (B) , erworbenes Produkt (C) , ... 

r,. 4. - a -! Ri ci zu den jeweiligen Kategorien 

. Die Eintrage Ax, Bx, u, ^ UC1 J 3 

A, B, C, . • • konnen dabei nummerischer oder semantxscher Art 
sein. ' 

Fur die Analyse solcner Onternehmensdaten werden statistische 
Verfahren, sogenannte .Data Mining Verfahren [4], [103, [11], 
[12], verwendet. Viele dieser Data Mining Verfahren bauen da- 
bei auf einem statischen Framework auf, d.h. sie sind xn ei- 
ner statistischen Sprache formuliert. 

Ein hinlanglich bekanntes und haufig eingesetztes Data Mining 
Verfahren ist ein sogenannter Entscheidungsbaum [5] . 

Weitere bekannte und verwendete Data Mining Verfahren sind 
sogenannte Clustering Verfahren [6] oder Assoziationsregeln 
(Association Rules) [9] . 

Nachteilig bei vielen der bekannten und genannten Analysever- 
fPhren ist, dass-sie bei der Analyse groiier Datenmengen nur 
unzureichend anwendbar sind. In der Regel ist dort namlich 
ein einmaliger oder mehrmaliger Zugriff auf den gesamten, zu^ 
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analysierenden Datenbestand, welcher beispielsweise in einer 
Datenbank gespeichert ist, notwendig. 

Bei groften Dateranengen fvihrt dies zu langen Zugrif f szeiten, 
5 zu langen Rechen- und Antwort zeiten und bedingt dadurch eine 
schlechte Performanz. Weiter ist auch eine hohe Rechenleis- 
tung bzw. Rechenkapazitat von Noten. 

Aus [7] ist eine Ermittlung eines gemeinsamen Wahrscheinlich- 
10 keitsmodells P (A, B, C, X) far eine Datenstruktur (A, B, 

C, . basierend auf einer versteckten Variable X bekannt. 

Aus [8] ist eine Ermittlung eines gemeinsamen Wahrscheinlich- 
keitsmodells P (A, B, C, ...) fur eine Datenstruktur (A, B, C, 
15 ..-) basierend auf ein Strukturlernen bekannt. 

Der Erf indung ' liegt die Aufgabe zugrunde, ein Analyseverf ah- 
ren zur Analyse strukturierter Nutzdaten anzug^eben, welches . 
auch bei groJien Nutzdatenmengen anwendbar ist;:und auch dort 
20 eine hohe .Performanz. auf weist . 

Diese Aufgabe wird durch das Verfahren und die Anordnung so- 
wie durch das Computerprogramm mit Programmcode-Mitteln und 
das Computerprogramm-Produkt zur Analyse von gemaii einer Da- 
tenbankstruktur strukturierten Nutzdaten mit den Merkmalen 
gemall dem jeweiligen unabhangigen Patentanspruch gelost. 



Bei dem Verfahren zur Analyse von gemali einer Datenbankstruk- 
tur strukturierten Nutzdaten wird zuerst ein gemeinsames sta- 

30 tistisches Wahrscheinlichkeitsmodell fur die gemaft der Daten- 
bankstruktur strukturierten Nutzdaten ermittelt. 
Anschlieliend werden die gemaii der Datenbankstruktur struktu- 
rierten Nutzdaten unter Verwendung eines statistischen Analy- 

— severfahrens analysiert f — wobei da-s "bei der Analyse verwendete 
35 statistische Analyseverf ahren auf das gemeinsame statistische 
Wahrscheinlichkeitsmodell angewendet wird, nicht wie ublich 

unmittelbar auf die -Au-sgang^s-d-a-ten- — 
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Die Anordnung zur Analyse von gemafi einer Datenbankstruktur 
strukturierten Nutzdaten weist auf: 

- eine Modellierungseinheit , mit welcher ein gemeinsames 
statistisches Wahrscheinlichkeitsmodell fur die gemafi der 
Datenbankstruktur strukturierten Nutzdaten ermittelbar 
ist, sowie 

- eine Analyseeinheit , mit welcher die gemafi der Datenbank- 
struktur strukturierten Nutzdaten unter Verwendung eines 
statistischen Analyseverf ahrens derart analysierbar sind f 
dass das bei der Analyse verwendete statistische Analyse- 
verfahren auf das gemeinsame statistische Wahrscheinlich- 
keitsmodell angewendet wird. 

Anschaulich gesehen basiert die Erfindung auf einer zweistu- 
figen Vorgehensweise . 

Auszugehen ist zunachst von vorgebbaren^. gemafi einer Daten- 
bankstruktur strukturierten Nutzdaten.- Dabei unter einer der- 
art igen datenbankgemafien Strukturierurig zu verstehen, dass 
den Nutzdaten eine iibergeordnete feste Struktur zugrunde 
liegt, beispielsweise jeweils gleich strukturierte Datensatze 
(Ai, Bi, Ci, ...) mit gleichen Eintragskategorien A, B, C, 
. Derartige Strukturen sind allgemein bekannt. 

Aus diesen zu analysierenden, gemafi einer Datenbankstruktur 
strukturierten Nutzdaten wird ein gemeinsames, zweckunabhan- 
giges Wahrscheinlichkeitsmodell, wie beispielsweise in [7], 
[8] beschrieben, gebildet. 

Dieses stellt ein allgemeines, vollstandiges und genaues Ab- 
bild einer Statistik der Datenstruktur der strukturierten 
Nutzdaten dar ( „Analytisches Datenbank-Abbild" ) . Ferner ist 
-e-s-eine- hochkomprimierte Form ernes -Wi-s'sens uber" die Nutzda- 
ten. 
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Das allgemeine Abbild kann dann nachfolgend als Grundlage fur 
die Analyse durch die statistischen Verfahren verwendet wer- 
den. Diese greifen dann nicht mehr auf den gesamten Nutzda- 
tenbestand bzw. auf die einzelnen Nutzdaten zu, sondern nut- 
zen das erstellte statistische Abbild, d.h. das gemeinsame 
wahrscheinlichkeitsmodell, fiir die Analyse. 

Dadurch konnen Zugriffs-, Rechen- und Antwortzeiten bei der 
Analyse reduziert und damit die Performanz gesteigert werden. 

Das erfindungsgemafce Computerprogramm mit Programmcode- 
Mitteln ist eingerichtet, um alle Schritte gemafi dem erfin- 
dungsgemalien Analyseverf ahren durchzuf iihren, wenn das Pro 
gramm auf einem Computer ausgefuhrt wird. 

Das Computerprogramm-Produkt mit auf einem maschinenlesbaren 
Trager gespeicherten Programmcode-Mitteln ist eingenchtet, 

alle Schritte gemali dem erf indungsgemafien Analyseverf ahren - 
"durchzuf iihren, wenn das Programm aufteinem Computer ausge- 
0 .. fuhrt' swird. ' 

Die Anordnung sowie das Computerprogramm mit Programmcode- 
Mitteln, eingerichtet um alle Schritte gemali dem erfinderi- 
schen Analyseverfahren durchzuf iihren, wenn das Programm auf 
einem Computer ausgefuhrt wird, sowie das Computerprogramm- 
Produkt mit auf einem maschinenlesbaren Trager gespeicherten 
Programmcode-Mitteln, eingerichtet um alle Schritte gemali dem 
erfinderischen Analyseverfahren durchzuf ahren, wenn das Pro 
gramm auf einem Computer ausgefuhrt wird, sind insbesondere 
30 geeignet zur Durchfiihrung des erf indungsgemaiien Analysever- 
fahrens oder einer seiner nachfolgend erlauterten Weiterbil- 
dungen . 

Bevorz-ugte-We-i-terbi--ldungen der Erfindung ergebemrtch acre" den 
35 abhangigen Ansprtichen. 
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Die im wsiteren beschriebenen Weiterbildungen beziehen sich 
sowohl auJ die Verfahren als auch auf die Anordnung. 

Die Erfindung und die im weiteren beschriebenen Weiterbildun- 
,e„ konnen sowohl in Software als auch in Hardware bel- 
spielsweise unter Verwendung einer speziellen eleKtrzschen 
schaltung, realisiert werden. 

ferner ist eine Realisierung der Erfindung Oder einer im wei- 
teren beschriebenen Weiterbildung moglich durch ein computer-- 
lesbares Speichermedium, auf welchem das Computerprogramm -it 
Pr ogrammcode-Mitteln gespeichert ist, welches die Erfindung 
oder Weiterbildung ausfuhrt. 

Auch kann die Erfindung oder jede im weiteren beschriebene 
Weiterbildung durch ein Computerprogrammerzeugnis realxsxert 
sein, welches ein Speichermedium aufweist, auf welchem das 
Computerprogramm mit Programmcode-Mitteln gespeichert xst, • 
welches die Erfindung oder Weiterbildung ausfuhrt. 

in einer Weiterbildung werden in Nutzdatensat zen strukturier- 
te Nutzdaten verwendet, beispielsweise Nutzdatensatze aus ex- 
ner Datenbank. Dabei reprasentiert jeder Nutzdatensatz exn 
bestimmtes Objekt aus einer Gruppe von Objekten. Die dem je- 
weiligen Nutzdatensatz zugehSrigen Hutzdaten beschreiben da- 
bei Eigenschaften des jeweiligen Objekts. 

FUr die Ermittlung des gemeinsamen statistischen Wahrschein- 
lichkeitsmodell konnen statistische Verfahren basierend auf 
einer versteckten Variable [7] oder Verfahren basierend auf 
ein Strukturlernen [8] verwendet werden. Auch eine Kombxnatx- 
on beider Verfahren ist mSglich. 



rerner ist es zweckmali-xgr-das-s- das statistische Analysever- 
'.Ihren derart auf das gemeinsame statistische Wahrscheinlich 
keitsmodell angewendet wird, dass eine gemeinsame Wahrschexn 
i-.chkeit als Einga-ngsg-rofire- fu-r-das statistische Analysever- 



fahren verwendet wird. Die gemeinsame Wahrscheinlichkext er- 
gibt sich unmittelbar aus dem gemeinsamen Wahrscheinlxch- 
keitsmodell. Dadurch lassen sich unnotige Zwischenschrxtte 
vermeiden, die Rechenzeit kosten und Antwortzeiten verlan- 



gern. 



Ais statistisches Analyseverf ahren kann ein Verfahren auf Ba- 
sis eines Data Mining Verfahrens [4], [10], [HI, [12] ver- 
wendet wird, beispielsweise ein Clustering Verfahren [5] oder 
ein Entscheidungsbaum -[6J oder Assoziationsregeln .[-.9] 

Bei der Analyse unter Verwendung des statistischen Analyse- 
verfahrens ist es mSglich, Abhangigkeiten zwischen den Nutz- 
daten und/oder deren Signif ikanzen basierend auf einem sta- 
tistischen Test zu ermitteln. Dies kann wegen der hochkomprx- 
mierten Form der Nutzdaten, d.h. des gemeinsamen Wahrschexn- 
lichkeitsmodells, interaktiv und sehr effizient er-folgen. 

Ferner ist es sinnvoll, die Ermittlung des gemeinsamen sta- 
tistischen Wahrscheinlxchkeitsmodells und die Analyse- des ge- 
meinsamen statistischen Wahrscheinlichkeitsmodell dutch das 
statistische Analyseverf ahren zeit- und ortsverschieden 
durchzufuhren. 

So kann beispielsweise das Analytische Datenbank-Abbild, d.h. 
das gemeinsame Wahrscheinlichkeitsmodell, in vorgebbaren 
zeitlichen Intervallen, wie taglich oder wochentlich, neu ge 
bildet werden. Die Bildung kann nachts oder am Wochenende er 
folgen. Das vollstandige Analytische-Datenbank-Abbild stent 
dann bei Bedarf zur Verfugung, urn Analysen erheblich zu be 
schleunigen. 

Die Nutzdaten k5nnen aus verschiedenen Datenguellen bezogen 
— werden. Am einfachsten ist der Bezug dfenwtzdaten aus einer 
Datenbank, in welcher die Nutzdaten gespeichert sind und von 
welcher sie ausgelesen werden. 
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Die Erfindung 1st wegen der durch sie erreichbaren Performanz 
bei der Analyse von Daten insbesondere dort geeignet, wo gro 
Be Datenmengen zu verarbeiten bzw. zu analysieren sind wie 
im Bereich eines Customer Relationship Management (CRM) [1] 
Oder eines Supply Chain Management [2] oder eines Data Ware- 
house (DW) [3] . 

im Bereich CMR kann eine Weiterbildung beispielsweise dazu 
eingesetzt werden, urn Kundendaten zu analysieren. In diesem 
Fall 1st das,Ob,jekt ein Kunde, welcher durch;. mildest ens zwei 
der folgenden Eigenschaf ten, Alter, Einkommen, erworbenes 
Produkt, Datum des Erwerbs, Haufigkeit von Kaufen, beschne- 
ben wird. Dadurch lassen sich fur Marketingabteilungen emi- 
nent wichtige Fragestellungen losen, wie ein Kundenverhalten 
bestimmter Kundengruppen. Basierend darauf lassen sich ge- 
zielter Zielgruppen bei einer Akquisition von Kunden bestim- 
raen far bestimmte Produkte und Marketingkampagnen sinnvoller 
Kundengruppen" .auswahlen und Kunden allgemein vorausschauender 
bedienen. .*> v'-i 

Ein Ausfuhrungsbeispiel der Erfindung ist in Figurfen darge- 
stellt und wird im weiteren erlSutert. 



Es zeigen 

Figur 1 Skizze, die schematisch eine Funktionsweise eines 
Analysesystems zur Analyse von Kundendaten gemali 
einem Ausfuhrungsbeispiel zeigt; 

30 Figuren 2a bis g Skizzen, die Analyseergebnisse eines Ana- 
lysesystems zur Analyse von Kundendaten gemali einem 
Ausfuhrungsbeispiel zeigen. 



Ausf uh-rungsbei spiel : 



35 Analysesystem zur Analyse eines Kundenverhaltens bei einer 
Bank basierend auf einem Customer Relationship Management 
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Gegenstand des Ausfuhrungsbeispiels ist ein Analysesystem zur 
Analyse von Kundendaten einer Bank. 

Vorwegzuschicken ist, dass das im Folgende beschriebene Ana- 
lysesystem nicht nur bei Banken, sondern auch bei beliebigen 
Unternehmen zur Analyse von entsprechenden Unternehmensdaten 
einsetzbar ist, wie beispielsweise bei Warenhauser oder pro- 
duzierenden Unternehmen- 

. v t • - ■ 

Funktionsweise des Analysesys terns (Fig.l) 

Fig.l zeigt schematisch die Funktionsweise 100 des Analyse- 
systems zur Analyse der Bankkundendaten 110. 

Die Funktionsweise 100 teilt sich auf in eine Wissensgewin- 
nung 10.1 und eine Umsetzung des Wissens. in eine intelligente 
Bedienung,- der. Bankkunden 102. ■ 

Grolbe und; damit schwer handhabbare Mengen von Kundendaten 110 
werden zunachst zu einem statistischen Modell 112, einem ge- 
meinsamen Wahrscheinlichkeitsmodell, des Kundenverhaltens 
kondensiert 111. 

Das verwendete gemeinsame Wahrscheinlichkeitsmodell 112 ist 
eines auf der Basis einer versteckten Variablen. Grundlagen 
dazu sind in [7] beschrieben. 

Anzumerken ist, dass auch andere Arten von gemeinsamen Wahr- 
scheinlichkeitsmodellen verwendet werden konnen, wie bei- 
spielsweise solche auf der Basis von Strukturlernen [8]. 



An Hand des gemeinsamen Wahrscheinlichkeitsmodells 112 lassen 
sich Eigense-haft-en-der-K-unden und insbesondere deren Verhal 1 --- 
35 ten iiber die Zeit sehr viel effizienter und flexibler explo- 
rieren als an Hand der Ausgangsdaten. 
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Dazu werden statistische Verfahren 120, im allgemeinen Data 
Mining Verfahren und hier in diesem Fall ein Entscheidungs- 
baum, verwendet, welche bzw. welcher auf das statistische Mo- 
dell aufsetzen bzw. aufsetzt. 

Anzumerken ist, dass auch andere Data Mining Verfahren ver- 
wendet werden konnen, wie beispielsweise Clustering Verfahren 
•oder Assoziations-Regeln. 

Grundlagen von Data Mining Verfahren sind in [4], [10] , [11] , 
[12], eines Entscheidungsbaums in [6] und von Clustering Ver- 
fahren in [5] beschrieben. 

Ermoglicht wird die Kopplung dadurch, dass die Data Mining 
Verfahren bzw. der Entscheidungsbaum 120 auf einem statist i- 
schen Framework aufbauen bzw. aufbaut und damit die gleiche 
-•statistischen Begriffe bzw. die gleiche statistische Sprache 
•wiedas gemeinsame Wahrscheinlichkeitsmodell 112 benutzt. 

Wichtige Fragestellungen (vgl. Figuren^2) konnen anhand des 
Entscheidungsbaums 120 im Riickgrif f \auf das. gemeinsame Wahr- 
scheinlichkeitsmodell 112 interaktiv beantwortet werden 140. 

Damit ist nicht nur eine quantitative (wie viel Kunden?) son- 
dern auch eine qualitative Sicht auf die Kunden (welche Sorte 
von Kunden) moglich, z.B.: 

- Wie viele und welche Qualitat von Kunden kommen iiber wel- 
che Partnerschaften oder Kampagnen? Wie effizient sind 
meine WerbemaJlnahmen? 

- Welche Kundenklassen mit welchen Praferenzen und Bedurf- 
nissen gibt es? Wie und wann lassen sich diese Bedurfnisse 
am besten befriedigen? 

Ergebnisse der Fragestellungen— Lassen- sich weiterf uhrend um- 

setzen 121 in eine intelligente Bedienung der Kunden 130.. 
Kundenda ten ( ( Fig , 1 , 110) 
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Die Kundendaten 110 bei dem Analysesystem werden im Rahmen 
eines Customer Relationship Management (CRM) 150 erhoben. 

Grundlagen eines CRM sind in [1] beschrieben. 

Bei dem CRM 150 werden grolie Mengen an Daten 110 ^« di « 
Bankkunden aus alien VertriebskanSlen der Bank , wxe dxrekte 
Kontakte, Web, Call Center, erfasst und gespexchert. 

Erfasst und gespeichert werden ■ f*r die Kunden jeweils <soge~ 

nannte Attribute A, B, C, . . - ) : „u-r> 

- die erworbenen Bankprodukte A in der jeweiligen zextlxchen 

Reihenfolge (Al, A2, A3, . ..), .. n „ nlt . 

- ein zeitlicher Kaufabstand B zwischen den Erwerbszextpunk 
ten der erworbenen Bankprodukten (Bl-2, B2-3, B3-4, ...), 

- ein Geburtsdatum (C) , 

- ein Einkommen (D) , 

- eine Adresse (E) , .. .'- ^ 

- der letzter Bankbesuch '(F);. 

- die letze Kontobewegung 1 

Die Speicherung erfolgt in einer Datenbank in Form von kun- 
denspezifischen Datensatzen Di (Al, A2, Bl-2, B2-3, 

C, D, ...), wobei der Index i den jeweiligen Bankkunden x 
kennzeichnet . 

Gemeinsames Wahrscheinlichkeitsmodell (Fig.l, 112) 

Das Wissen iiber die Bankkunden, das in diesen Daten 110 ver- 
30 borgen liegt, wird dann zu einem Modell, dem gemeinsamen 
Wahrscheinlichkeitsmodell 112, kondensiert. 

Das verwendete gemeinsame Wahrscheinlichkeitsmodell 112 1st 
. e-ines- au-f- der Basis einer versteckten "VHriablen-X:- Grundlagen 
35 dazu sind in (7] beschrieben. 
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Geschrieben wird das gemeinsa»e Wanrscheinlichkeit^odell 112 

basierend auf der versteckten Variablen X als P(A,B, C 

X) fur alle Attribute (A, B, C, ...)• 

Ein seiches statistischen Abbild von Oaten stellt 
Lnprimierte Form eines Wissens liber Kunden dar und kann ge 
nlTzt Lrden, - effizient und interaktiv Abhangigkexten zu 
explorieren 120, 140. 

R n Hand des hier erstellten gemeinsamen Mahrscheinlicbkeits- 
An nana u Kunden schnell 

modells 112 lafit sxch nun das Wxssen uber Verha l- 
Uber efficient abgreifen, insbesondere lessen sxch V«tal 
tenswelsen der Kunden einfach und flexibel studxeren, lessen 
sich tyPische Verhaltensmuster und Entwicklungszyklen von 
Kunden effizient und Intultiv analysieren, lessen sxch typx- 
sche Kundenseg^ente und deren Praferenzen sicher und exndeu- 
tig bestiromen und erkennen 120, 140. 

rerner liefert das ge»einsame M*'^^"'*^^ .' 
Uber die beschriebehe Analyse* unktion hinaus schnell abrufta . 
r e Prognosen Uber welter zu erwartendes Verhalten ^aktuel- 
" Bedlfnisse eines Kunden. Die Prognosen kennen 
genutzt warden, Kunden vorausschauend und gezielt 
und proaktive, personliche Angebote zu unterbrexten 130. 

Aufsatz eines Bntscheidungsbaums auf das gemeinsame Wahr- 
scheinlichkextsmodall (Fig.l, 120) 

in weiterer Verwendung des gemeinsamen Wahrscheinlichkeitsmo- 
Llls 112 wird der Bntscheidungsbaum [6, auf das statxstxsche 
Modell 112, das gemeinsame Wahrscheinlichkeitsmodell 112, 
aufgesetzt 120, 

Damit lassen-s-i-ch-be-li-ebige Randverteilungen ,-wie-^-f IT* 
nen ersten Split des Bntscheidungsbaums, namlxch P(A,X), 
P(B,X), P(CX), .... und auch fur alle «it.«n*ll*-J^_ 
Ent scheidwagebawfts -e^mitteln . 
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Weiter lassen sich auch alle Grundwahrscheinlichkeitsvertei- 
lungen bzw. . Grundwahrscheinlichkeiten P(A), P(B), . und be- 
' liebige bedingte Wahrscheinlichkeiten bzw. Wahrscheinlich- 
5 keitsverteilungen P(B|A) , P(C|A), P(C|B), ... ermitteln. 

Aus der gemeinsamen Verteilung P (A, B, C, — X) basierend 
auf der versteckten (oder latenten) Variable X geht zunachst 
die gemeinsame Verteilung P(A,B, C, . . . ) ' tiber alle Attribute 
der Kunden durch, Summation iiber die versteckte,: Variable X 
hervor . 

Strukturlernen liefert hier unmittelbar eine gemeinsame Ver- 
teilung P (A,B, C, . . . ) . 

Aus der gemeinsamen Verteilung lassen sich dann beliebige 
ein-dimensionale Randverteilungen (Marginale) P (A) , P(B), 
. niedrig-dimensionalere Verteilungen Pl(A,B) , P(B,C), ... 
und beliebige. \bedingte Wahrscheinlichkeiten -(ein- oder raehr- 
dimensionale)-:v.P(B.|A) / P(C|A) , P(A,C|B) , .w-ableiten. ' 

Dies erfolgt im Rahmen eines Inferenzprozesses, wie in [13] 
beschrieben. 

Dabei wird nach [13] die Struktur der Modelle, beispielsweise 
welche mit einer vorgegebenen versteckten Variable oder wel- 
che, die durch Strukturlernen erzeugt wurden, oder eine Kom- 
bination der Vorgenannten, genutzt, um notwendigen Summen li- 
ber die gemeinsame Verteilung effizient zu berechnen. 

Entscheidungsbaume werden zumeist nach einem bekannten CHAID 
oder einem bekannten CART Verfahren aufgebaut. 

Im Allgemeinen benetig-t— ma-n-~zum Aufbau eines Entscheidungs- 
baums mit einer Zielvariablen (oder abhangigen Variablen) A 
fur den sogenannten ersten Split zunachst alle paarweisen 
Verteilungen P (A r B^.--P-(-B- r €-)- f ---P-(A T -D) , . . . . 
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Eine Selektion einer Variablen aus der Menge der Variablen B, 
C, D, fur den ersten Split erfolgt dann bei fast alien 

bekannten Verfahren basierend auf einem statistischen Krite- 
rium (einem statistischen Test und Signif ikanzkriterien) ba- 
sierend auf den paarweisen Verteilungen P(A,B), P(B,C), 
P(A,D), ... und einer bekannten Anzahl an Daten. 

Wurde beispielsweise fttr den ersten Split die Variable D mit 
den beiden .Werten dl und d2 gewahlt . , . ..so^benotigt man fur den 
zweiten Split bedingte, paarweise Verteilungen der Form 
P(A,B|dl), P(A,B|d2), P(A,C|dl), P(A,C|d2), ... . 

Die notwendigen Wahrscheinlichkeiten oder Verteilungen fur 
den Aufbau des Entscheidungsbaums (bzw. als Grundlagen fur 
die notwendigen statistischen Tests) konnen (wie tiblich) aus 
den Daten oder auch aus einem moglichst genauen, im Obigen 
beschrieben Wahrscheinlichkeitsmodell? «('Inf erenzprozess) er- 
mittelt .vwerden. - • - ■ •".;■••.»•* 

Interaktive Analysen (Fig.l, 140 , Fig. 2a bis 2g) 

Fig. 2a bis 2g zeigen exemplarisch einige der moglichen in- 
teraktiven Analysen 140, welche mit dem Entscheidungsbaum 120 
im RUckgriff auf das gemeinsame Wahrscheinlichkeitsmodell 112 
durchgefiihrt werden konnen. 

Fig. 2a zeigt Wahrscheinlichkeitsverteilungen P(Al) f P(A2) 
P(A3) P(A4), P(A5), P(Bl-2), P(B2-3), P(B3-4) undP(C) und 
P(D). Besondere gekennzeichnet ist P(A1= „Giro/Gehalts- 
Konto)=56,125%. 

Fig. 2b zeigt nun bedingte Wahrscheinlichkeitsverteilungen un- 
-trer— der- Bedingung Al= ^Giro/Gehal-trs— Konto M -r~namlich P(A2|A1= 
„Giro/Gehalts-Konto" ) f P (A3 | Al= , „Giro/Gehalts-Konto" ) , 
P(A4|A1= „Giro/Gehalts-Konto" ) , P(A5|A1= „Giro/Gehalts- 
-Konfeo^-)-/- P(B1-2 1A1= „Giro/Geha-l-t--s~ Ken-fee^ H— P-(B2-3 |A1= „Gi- ■ 
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ro/Gehalts-Konto«>, P1B3-4IA1- ^^^Toliltf- 
p ( C|Al- „Giro/Gehalts-Konto» ) und P<D|A1- „Gxxo/Gehalts 
Konto«>. Besonders gekennzeichnet sind P.A2- ^ersxche- 
rungspoduktlAl- „Giro/Gehalts-Konto>=29% und P (A2- „Spa 
5 ren/Geldanlage I Al= „Giro/Gehalts-Konto> -50% . 

. Fig . 2c zeigt nun bedingte wahrscheinlichkeitsverteilunger > u„- 

ter dan Bedingungen Al= ,.Gire/Gahalts-Konto» und A2- „Versx 

cherungsprodukt" , namlich P(A3,A1- „Giro/Gehalts-Konto , A2 

10 ^rsicnerungsprodu^,, P (A4 I A^^ro/Gehalts-Konto A2- 

^„m-*m P(A5IA1= „Giro/Gehalts-Konto , ^ 
,/Versicherungsprodukt ), p^di^x „ 

• v. ™H,.Wt>M • Besonders gekennzeichnet ist 

„Versicherungsprodukt ), ••• * Prnriukt 

hier P(Bl-2- „Kaufabstand zwischen erstem und zweitem Produkt 
groL 3 aah r e, A l= „Giro/Gehalts-Konto« , A2= „Versicherungs- 
15 produkt) =85%. 

, F ig.2d zeigt weitere bedingte Wahrscheinlichkeitsver^ilungen 
,,-, u „L den Bedingungen Al- „Giro/Gehalts-Konto» und A2- „Spa 
WnftlW. n»lich P ( A3|Al-,,Gxro/Gehalts-Konto A2- 
20 , ;,Sparen/Geldanlage~,, KA4IAJ- „Glro/Gahalts-Konto A2- 
Sparen/Geldanlaga" , , P CAS I Al- „GixO/Gehalts-Konto A2- 

„Sparen/Geldanlage» ) Besonders gekennzexchnet sxnd 

hier die Wahrscheinlichkeitsverteilungen P(B1-2|A1- „Gx- 
ro/Gehalts-Konto",A2- „Sparen/Geldanlage" ) . 

Fig 2e zeigt die Wahrscheinlichkeitsverteilungen P(A1), P(A2) 
P( A3, P(A4>, P(A5>, PCB1-2), PCB2-3), P(B3-4) undP,C, und 
P(D). Besondere gekennzeichnet ist P(A1= „Giro/Gehalts- 
Konto)-S6,125%. Deswexteren zeigt Fig.2e die Wahrschexnlxch- 
keitsverteilung der versteckten Variable X, bazeichnet hxer 
als Segraente, namlich P(Segmente). Besonders gekennzexchnet 
st P (Segmented- 34%, was zeigt, dass 34% aller erfasstan 
Bankkunden in das Segment 4 fallen. 

FigurenlTund 2g zeigen wiedarun, die bedingte Wahrschein- 
lichkeitsverteilungen, einmal unter der Bedingung Segmente-4 



30 
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(F±g.2f) and das andere Mai unter der Bedingung O Geburtsda- 
tum zwischen 980 und 1990 (Fig.2g). 
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Patentanspriiche 

1. verfahren zur Analyse von gemali einer Datenbankstruktur 
strukturierten Nutzdaten, 

- bei dam ein gemeinsames statistisches WahrschemXrchkerts- 
m odell far die gemM der Datenbankstruktur strukturierten 
Nutzdaten ermittelt wird f 

- bei dem die gemali der Datenbankstruktur strukturierten 
Nutzdaten unter Verwendung eines statistischen Analysever- 
fahrens analysiert werden, wobei da^ bei der Analyse ver- 
wendete statistische Analyseverf ahren auf das gemeinsame 

. statistische Wahrscheinlichkeitsmodell angewendet wrrd. 

2 Verfahren nach Anspruch 1, 

bei dem die gemali der Datenbankstruktur strukturierten Nutz- 
daten in Nutzdatensatze strukturiert sind, welche Nutzdaten- 
satze jeweils ein Objekt reprasentieren, wobei die Nutzdaten 
eines. Nutzdatensatzes Eigenschaf ten des, jeweiligen Ob D ekts 
beschreiben. 

3 Verfahren nach Anspruch 1 oder 2, 

bei dem das gemeinsame statistische Wahrscheinlichkeitsmodell 
basierend auf einer versteckten Variable ermittelt wird. 

4 Verfahren nach einem der Anspruche 1 bis 3, 

bei dem das gemeinsame statistische Wahrscheinlichkeitsmodell 
basierend auf ein Strukturlernen ermittelt wird. 

5 verfahren nach einem der vorangehenden Anspruche , 

bei dem das statistische Analyseverf ahren derart auf das ge 
meinsame statistische Wahrscheinlichkeitsmodell angewendet 
wird, dass eine gemeinsame Wahrscheinlichkeit des gemeinsamen 
Wahrscheinlichkeitsmodells als Eingangsgrolie fur dasj>tatis ^ 
tische Ana-lyse-ve-r-f-a-hren-verwendet wird. 

6. Verfahren nach- einem der vorangehenden Anspruche, 
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bei dem als statistisches Analyseverf ahren ein Verfahren auf 
Basis eines Data Mining Verfahrens verwendet wird. 

7. Verfahren nach Anspruch 6, 

bei dem als statistisches Analyseverf ahren ein Clustering 
Verfahren verwendet wird. 

8.. Verfahren nach Anspruch 6 

Bei dem als statistisches Analyseverf ahren ein Verfahren be- 
Jcannt unter dem Namen „Assoziatiorisregeln« verwendet wird. 

9. Verfahren. nach Anspruch 6, 

bei dem als statistisches Analyseverf ahren ein Entscheidungs 
baum verwendet wird. 

10. Verfahren nach einem der vorangehenden Anspruche, 

bei dem bei der Analyse unter Verwendung des statistischen 
.UAna-lyseverfahrens Abhangigkeiten-zwischen den Nutzdaten er- 
mittelt werden und/oder deren SignAfAkanzen basierend auf ei 
nem statistischen Test ermittelt werden.' 

11. Verfahren nach einem der vorangehenden Anspruche, 

bei dem die Ermittlung des gemeinsamen statistischen Wahr- 
scheinlichkeitsmodells und die Analyse des gemeinsamen sta- 
tistischen Wahrscheinlichkeitsmodell durch das statistische 
Analyseverfahren zeit- und ortsverschieden durchgefiihrt wer- 
den. 

12. Verfahren nach einem der vorangehenden Anspruche, 

bei dem die Nutzdaten in einer Datenbank gespeichert werden 

13. Verfahren nach einem der Anspruche 2 bis 12, 

bei dem das Objekt ein Kunde ist, welcher durch mindestens 
— zwei der folgenden Eigenseh-a-f ten, --Alter, Einkommen, erworbe 
nes Produkt, Datum des Erwerbs, Haufigkeit von Kaufen, be- 
schrieben wird. 
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14. Verfahren nach einem der vorangehenden Anspruche, 
eingesetzt bei dem Data Warehouse, wobei die Nutzdaten das 
Data Warehouse beschreiben. 

15. Verfahren nach einem der Anspriiche 1 bis 13, 
eingesetzt bei einem Customer Relationship Management oder 
einem Supply Chain Management, wobei die Nutzdaten Kundenda- 
ten oder Produktdaten sind. 

16 . Anordnung zur Analyse von gemali einer Datenbankstruktur / • 
strukturierten Nutzdaten, 

- mit einer Modellierungseinheit , mit welcher ein gemeinsa- 
mes statistisches Wahrscheinlichkeitsmodell fur die gemali 
der Datenbankstruktur strukturierten Nutzdaten ermittelbar 

- mit' einer Analyseeinheit, mit welcher die gemali der Daten- 
bankstruktur strukturierten Nutzdaten unter Verwendung er- 
nes statistischen Analyseverf ahrens derart analysierbar-n 

.. sind, dass das bei der . Analyse verwendete statistische 'A- ' - 
nalyseverfahren auf das gemeinsame statistische Wahr- -•. 
scheinlichkeitsmodell angewendet wird. 

17. Computerprogramm-Erzeugnis, das ein computerlesbares 
Speichermedium umfasst, auf dem ein Programm gespeichert ist, 
das es einem Computer ermdglicht, nachdem es in einen Spei 
cher des Computers geladen worden ist, folgende Schritte 
durchzuftthren zur Analyse von gemali einer Datenbankstruktur 
strukturierten Nutzdaten, 

- ein gemeinsames statistisches Wahrscheinlichkeitsmodell 
wird fur die gemali der Datenbankstruktur strukturierten 
Nutzdaten ermittelt, 

- die gemali der Datenbankstruktur strukturierten Nutzdaten 
warden unter Verwendung eines statistischen Analyseverf ah- 

.rens-a-nalysiert, wobei das bei der-Ana±ys^-vexwendete sta- 
tistische Analyseverfahren auf das gemeinsame statistische 
Wahrscheinlichkeitsmodell angewendet wird. 
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18 . Computerlesbares Speichermedium, auf dem ein Programm ge- 
speichert 1st, das es einem Computer ermoglicht, nachdem es 
in einen Speicher des Computers geladen worden 1st, folgende 
Schritte durchzufuhren zur Analyse von gemaB einer Datenbank- 
struktur strukturierten Nutzdaten, 

- ein gemeinsames statistisches Wahrscheinlichkeitsmodell 
wird fur die gemali der Datenbankstruktur strukturierten 
Nutzdaten ermittelt, 

- die gemali der Datenbankstruktur strukturierten Nutzdaten 
werden unter Verwendung eines statistischen Analysev-exfah- 
rens analysiert, wobei das bei der Analyse verwendete sta- 
tistische Analyseverfahren auf das gemeinsame statistische 
Wahrscheinlichkeitsmodell angewendet wird. 

19. Computerprogramm mit Programmcode-Mitteln, um alle 
Schritte gemali Anspruch 1 durchzufuhren, wenn das Programm 
auf einem Computer :;ausgefuhrt wird. 

}•••■»• 

20 . Computerprogramm mit. Programmcode-Mitteln gemali Anspruch 
• 18, die auf einem - computerlesbaren Datentrager gespe'iGhert 

sind. 

21. Computerprogramm-Produkt mit auf einem maschinenlesbaren 
Trager gespeicherten Programmcode-Mitteln, um alle Schritte 
gemafi Anspruch 1 durchzufuhren, wenn das Programm auf einem 
Computer ausgefxihrt wird. 
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Zusairanenf assung 



Verfahren und Anordnung sowie Computerprogramm nut Programm- 
code-Mitteln und Computerprogramm-Produkt zur Analyse von ge- 
maB einer Datenbankstruktur strukturierten Nutzdaten 

Bei der Analyse wird zuerst ein gemeinsames • t » ti » ti » < *" 8 
Wahrscheinlichkeitsmodell fur die gemali der Datenbankstruktur 
strukturierten Nutzdaten ermittelt. Anschlieliend werden die 
gemali der Datenbankstruktur strukturierten NUtzdaten unter 
verwendung eines statistischen Analyseverf ahrens analysxert, 
wobei das bei der Analyse verwendete statistische Analysever- 
fahren auf das gexneinsame statistische Wahrscheinlichkeitsmo- 
dell angewendet wird. 



Sign. Fig. 1 
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